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La presente invention concerne un precede de conversion d'un signal 
vocal prononce par un locuteur source en un signal vocal converti dont les 
caracteristiques acoustiques ressembient a celles d'un locuteur cible et un 
systeme de conversion correspondant. 
5 Dans le cadre duplications de conversion de voix, telles que les 

services vocaux, les applications de dialogue oral homme-machine ou encore la 
synthese vocale de textes, le rendu auditif est primordial et, pour obtenir une 
qualite acceptable, il convient de bien maTtriser les parametres acoustiques des 
signaux vocaux. 

■jO De maniere classique, les principaux parametres acoustiques ou 

prosodiques modifies lors de procedes de conversion de voix sont les parametres 
relatifs a I'enveloppe spectrale, et pour les sons voises faisant intervenir la 
vibration des cordes vocales, les parametres relatifs a une structure periodique, 
soit la periode fondamentale dont I'inverse est appele frequence fondamentale 

15 ou « pitch ». 

Les procedes de conversion de voix ciassiques sont essentiellement 
fondes sur des modifications des caracteristiques d'enveioppe spectrale et deb 
modifications globales des caracteristiques de frequence fondamentale. ,: 
Une etude plus recente, publiee a I'occasion de ia conference 

20 EUROSPEECH 2003 sous le titre « A new method for pitch prediction from 
spectral envelope and its application in voice conversion » par Taoufik En- 
Najjary, Olivier Rosec and Thierry Chonavel, prevoit la possibility d'affiner ia 
modification des caracteristiques de frequence fondamentale en definissant une 
fonction de prediction de ces caracteristiques, en fonction de caracteristiques 

25 d'enveioppe spectrale. 

Ainsi, ce procede permet de modifier les caracteristiques d'enveioppe 
spectrale, et en fonction de celles-ci, de modifier les caracteristiques de 
frequence fondamentale. 

Ce procede presente toutefois I'inconvenient important de rendre la 

30 modification des caracteristiques de frequence fondamentale dependantes de la 
modification des caracteristiques d'enveioppe spectrale. Ainsi une erreur de 
transformation de I'enveloppe spectrale se repercute automatiquement sur la 
prediction de frequence fondamentale. 
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De plus, la mise en oeuvre d'un tel precede requiert deux etapes 
importantes de calcul, soit la modification des caracteristiques d'enveloppe 
spectrale et la prediction de la frequence fondamentale, aboutissant ainsi a 
doubier la complexity du systeme dans son ensemble, 
5 Le but de la presente invention est de resoudre ces probiemes en 

definissant un procede de conversion de voix simple et plus efficace. 

A cet effet, la presente invention a pour objet un procede de 
conversion d f un signal vocal prononce par un locuteur source en un signal vocal 
converti dont les caracteristiques acoustiques ressemblent a celles d'un locuteur 
10 cible, comprenant : 

- la determination d'au moins une fonction de transformation de 
caracteristiques acoustiques du locuteur source en caracteristiques acoustiques 
proches de celles du locuteur cible, a partir d'echantillons vocaux des focuteurs 
source et cible ; et 

15 - la transformation de caracteristiques acoustiques du signal vocal a 

convertir du locuteur source, par ['application de ladite au moins une fonction de 
transformation, 

caracterise en ce que ladite determination comprend la 
determination d'une fonction de transformation conjointe de caracteristiques 
20 relatives a I'enveloppe spectrale et de caracteristiques relatives a la frequence 
fondamentale du locuteur source et en ce que ladite transformation comprend 
['application de ladite fonction de transformation conjointe. 

Ainsi, le procede de ('invention permet !a modification simultanee au 
cours d'une seule operation des caracteristiques d'enveloppe spectrale et de 
25 frequence fondamentale sans creer de dependance entre celfes-ci. 
Suivant d'autres caracteristiques de invention : 

- ladite determination d'une fonction de transformation conjointe 

comprend : 

- une etape d'analyse des echantillons vocaux des locuteurs 
30 source et cible regroupes en trames pour obtenir, pour chaque trame 
d'echantillons d f un locuteur, des informations relatives a I'enveloppe spectrale et 
a la frequence fondamentale ; 
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- une etape de concatenation des informations relatives a 
Tenveloppe spectrale et a la frequence fondamentale pour chacun des locuteurs 
source et cibie ; 

- une etape de determination d r un modeie representant des 
5 caracteristiques acoustiques communes des echantillons vocaux du locuteur 

source et du locuteur cible ; et 

- une etape de determination, a partir de ce modeie et des 
echantillons vocaux, de ladite fonction de transformation conjointe ; 

- lesdites etapes d'analyse des echantillons vocaux des locuteurs 
10 source et cible sont adaptees pour delivrer lesdites informations relatives a 

Penveloppe spectrale sous la forme de coefficients cepstraux ; 

- lesdites etapes d'analyse comprennent chacune la rnodelisation 
des echantillons vocaux selon une somme d'un signal harmonique et d'un signal 
de bruit qui comprend : 

15 - une sous-etape d'estimation de la frequence fondamentale des 

echantillons vocaux ; 

- une sous-etape d'analyse synchronisee de chaque trame 
d'echantillons sur sa frequence fondamentale ; et S 

- une sous-etape d'estimation de parametres d'enveloppe; 
20 spectrale de chaque trame d'echantillons. 

- ladite etape de determination d'un modeie correspond a la 
determination d'un modeie de melange de densites de probabiiites gaussiennes; 

- ladite etape de determination d'un modeie comprend : 

- une sous-etape de determination d'un modeie correspondant a 
25 un melange de densite de probabiiites gaussiennes, et 

- une sous-etape d'estimation des parametres du melange de 
densites de probabiiites gaussiennes a partir de I'estlmation du maximum de 
vraisemblance entre les caracteristiques acoustiques des echantillons des 
locuteurs source et cible et le modeie ; 

30 - ladite determination d'au moins une fonction de transformation, 

comporte en outre une etape de normalisation de la frequence fondamentale des 
trames d'echantiilons des locuteurs source et cible respectivement par rapport 
aux moyennes des frequences fondamentaies des echantillons analyses des 
locuteurs source et cible ; 
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- !e precede comporte une etape d'alignement tempore! des 
caracteristiques acoustiques du locuteur source avec les caracteristiques 
acoustiques du locuteur cible, cette etape etant realise© avant iadite etape de 
determination d'un mod el e ; 

5 - le procede comporte une etape de separation dans les 

echantillons vocaux du locuteur source et du locuteur cible, des trames a 
caractere voise et des trames a caractere non voise, Iadite determination d'une 
fonction de transformation conjoints des caracteristiques relatives a Penveioppe 
spectraie et a la frequence fondamentale etant realisee uniquement a partir 
10 desdites trames voisees et le procede comportant une determination d'une 
fonction de transformation des seules caracteristiques d'enveloppe spectraie 
uniquement a partir desdites trames non voisees ; 

- Iadite determination d'au moins une fonction de transformation 
comprend uniquement Iadite etape de determination d'une fonction de 

15 transformation conjointe ; 

- Iadite determination d'une fonction de transformation conjointe est 
realisee a partir d'un estimateur de la realisation des caracteristiques acoustiques 
du locuteur cible sachant !es caracteristiques acoustiques du locuteur source ; 

- ledit estimateur est forme de Pesperance conditionnelie de ia 
20 realisation des caracteristiques acoustiques du locuteur cible sachant la 

realisation des caracteristiques acoustiques du locuteur source ; 

- Iadite transformation de caracteristiques acoustiques du signal 
vocal a convertir, comporte : 

- une etape d'analyse de ce signal vocal, regroupe en trames 
25 pour obtenir, pour chaque trame d'echantilfons, des informations relatives a 

Penveioppe spectraie et a la frequence fondamentale ; 

- une etape de formatage des informations acoustiques relatives 
a Penveioppe spectraie et a la frequence fondamentale du signal vocal a 
convertir ; et 

30 - une etape de transformation des informations acoustiques 

form ate es du signal vocal a convertir a Paide de Iadite fonction de 
transformation conjointe ; 
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- le precede comporte une etape de separation, dans ledit signal 
vocal a convertir, des trames voisees et des trames non voisees, ladite etape de 
transformation corn p re n ant : 

- une sous-etape d'application de ladite fonction de 
5 transformation conjointe aux seules trames voisees dudit signal a convertir ; et 

- une sous-etape d'application de ladite fonction de 
transformation des seules caracteristiques d'enveloppe spectrale auxdites trames 
non voisees dudit signal a convertir ; 

- ladite etape de transformation comprend I'application de ladite 
10 fonction de transformation conjointe aux caracteristiques acoustiques de toutes 

les trames dudit signal vocal a convertir ; 

- le procede comporte en outre une etape de synthese permettant 
de former un signal vocal converti a partir des dites informations acoustiques 
transformees. 

15 L'invention a egalement pour objet un systeme de conversion d'un 

signal vocal prononce par un locuteur source en un signal vocal convert! dont les 
caracteristiques acoustiques ressemblent a celies d'un locuteur cible* 
comprenant : 

- des moyens de determination d'au moins une fonction de 
20 transformation des caracteristiques acoustiques du locuteur source en 

caracteristiques acoustiques proches du locuteur cible, a partir d'echantillons 
vocaux prononces par les locuteurs source et cible : et 

- des moyens de transformation des caracteristiques acoustiques 
du signal vocal a convertir du locuteur source par I'application de ladite au moins 

25 une fonction de transformation, 

caracterise en ce que lesdits moyens de determination d'au moins 
une fonction de transformation, comprennent une unite de determination d'une 
fonction de transformation conjointe de caracteristiques relatives a I'enveloppe 
spectrale et de caracteristiques relatives a la frequence fondamentale du locuteur 
30 source et en ce que lesdits moyens de transformation comportent des moyens 
d'application de ladite fonction de transformation conjointe. 

Selon d'autres caracteristiques de ce systeme : 

- if comporte en outre : 
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- des moyens cfanalyse du signal vocal a convertir, adaptes pour 
delivrer en sortie des informations relatives a I'enveloppe spectraie et a la 
frequence fondamentale du signal vocal a convertir ; et 

- des moyens de synthese permettant de former un signal vocal 
5 convert) a partir au moins desdites informations d'enveloppe spectraie et de 

frequence fondamentale transformees simultanement ; 

- lesdits moyens de determination d'au moins une fonction de 
transformation de caracteristiques acoustiques comportent en outre une unite de 
determination d'une fonction de transformation de I'enveloppe spectraie des 

10 frames non voisees, tadite unite de determination de ia fonction de transformation 
conjointe etant adaptee pour la determination de ia fonction de transformation 
conjointe uniquernent pour les frames voisees. 

L'invention sera mieux comprise a la lecture de la description qui va 
suivre, donnee uniquernent a titre d'exempie et faite en se referant aux dessins 

15 annexes, sur lesquels : 

- les Figs. 1A et 1B forment un organigramrne general d'un premier 
mode de realisation du procede de invention ; 

- les Figs. 2A et 2B forment un organigramrne general d'un second 
mode de realisation du procede de Tinvention ; 

20 - ia Fig. 3 est un graphique representant un refeve experimental des 

performances du procede de I'invention ; et 

- ia Fig. 4 est un schema synoptique d'un systems mettant en oeuvre 
un procede selon {'invention. 

La conversion de voix consiste a modifier ie signal vocal d'un locuteur 
25 de reference appele locuteur source, de telle sorte que le signal produit semble 
avoir ete prononce par un autre locuteur, nomme locuteur cible. 

Un tel procede comporte tout d'abord la determination de fonctions de 
transformation de caracteristiques acoustiques ou prosodiques des signaux 
vocaux du locuteur source en caracteristiques acoustiques proches de celles des 
30 signaux vocaux du locuteur cible, a partir d'echantiilons vocaux prononces par le 
locuteur source et le locuteur cibie. 

Plus particulierement, la determination 1 de fonctions de 
transformation est realisee sur des bases de donnees d'echantillons vocaux 
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correspondant a la realisation acoustique de memes sequences phonetiques 
prononcees respectivement par les locuteurs source et cible. 

Cette determination est designee sur la figure 1A par la reference 
numerique generale 1 et est egalement couramment appelee « apprentissage ». 

Le procede comporte ensuite une transformation des caracteristiques 
acoustiques d'un signal vocal a convertir prononce par le iocuteur source a I'aide 
de la ou des fonctions determinees precedemment. Cette transformation est 
designee par la reference numerique generale 2 sur la figure 1B. 

Le procede debute par des etapes 4X et 4Y d'analyse des echantillons 
vocaux prononces respectivement par les locuteurs source et cible. Ces etapes 
permettent de regrouper les echantillons par trames, afin d'obtenir pour chaque 
trame d'echantillons, des informations relatives a I'enveloppe spectrale et des 
informations relatives a la frequence fondamentale. 

Dans le mode de realisation decrit, les etapes 4X et 4Y d'analyse sont 
fondees sur l'utiiisation d'un modele de signal sonore sous la forme d'une somme 
d'un signal harmonique avec un signal de bruit selon un modele communement 
appele "HNM" (en anglais : Harmonic plus Noise Model). \ 
Le modele HNM comprend la modelisation de chaque trame de signal 
vocal en une partie harmonique representant la composante periodique du 
signal, constitute d'une somme de L sinusoi'des harmoniques d'amplitude A| et 
de phase <j>i, et d'une partie bruitee representant le bruit de friction et la variation 
de I'excitation glottale. 

On peut ainsi ecrire : 
s(n)=h(n)+b(n) 

avec h(n)= ^A.^cosCfCn)) 

Le terme h(n) represente done I'approximation harmonique du signal 

s(n). 

En outre, le mode de realisation decrit est fonde sur une 
representation de I'enveloppe spectrale par le cepstre discret. 

Les etapes 4X et 4Y comportent des sous-etapes 8X et 8Y 
d'estimation pour chaque trame, de la frequence fondamentale, par exemple au 
moyen d'une methode d'autocorrelation. 



1er depot 




8 

Les sous-etapes 8X et 8Y sont chacune suivies d'une sous-etape 10X 
et 10Y d'analyse synchronisee de chaque trarne sur sa frequence fondamentale, 
qui permet d'estimer les parametres de ia partie harmonique ainsi que ies 
parametres du bruit du signal et notamment la frequence maximale de 
5 voisement En variante, cette frequence peut etre fixee arbitrairement ou etre 
estimee par d'autres moyens connus. 

Dans le mode de realisation decrit, cette analyse synchronisee 
correspond a la determination des parametres des harmoniques par minimisation 
d'un critere de moindres carres ponderes entre le signal complet et sa 
10 decomposition harmonique correspondant dans ie mode de realisation decrit, au 
signal de bruit estime. Le critere note E est egal a : 

E » ^(n)(s(n)-h(nF 
n=-Ti 

Dans cette equation, w (n) est la fenetre d'analyse et Tj est la periode 
fondamentale de la frame courante. 
15 Ainsi, la fenetre d'analyse est centree autour de la marque de ia 

periode fondamentale et a pour duree deux fois cette periode. 

En variante, ces analyses sont faites de maniere asynchrone avec un 
pas fixe d'analyse et une fenetre de taille fixe. 

Les etapes 4X et 4Y d'analyse comportent enfin des sous-etapes 12X 
20 et 12Y d'estimation des parametres de Penveloppe spectrale des signaux en 
utilisant par exemple une methode de cepstre discret regularise et une 
transformation en echelle de Bark pour reproduire le plus fidelement possible les 
proprietes de Toreiile humaine. 

Ainsi, les etapes 4X et 4Y d'analyse delivrent respectivement pour [es 
25 echantillons vocaux prononces par les focuteurs source et cibie, pour chaque 
frame de rang n d'echantilions des signaux de parole, un scalaire note F n 
representant la frequence fondamentale et un vecteur note c n comprenant des 
informations d'enveloppe spectrale sous la forme d'une sequence de coefficients 
cepstraux. 

30 Le mode de calcul des coefficients cepstraux correspond a un mode 

operatoire connu de I'etat de la technique et, pour cette raison, ne sera pas decrit 
pius en detail. 
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Avantageusement, les etapes 4X et 4Y d'anaiyse sont suivies chacune 
par une etape 14 X et 14Y de normalisation de ia valeur de la frequence 
fondamentale de chaque trame par rapport respectivement aux frequences 
fondamentaies des locuteurs source et cible afin de remplacer, pour chaque 
trame d'echantilions vocaux, la valeur de la frequence fondamentale par une 
valeur de frequence fondamentale normalisee selon la formule suivante : 

Fo 



g = Fiog = log 



-ponoy 



Dans cette formule, F m ° y correspond aux moyennes des valeurs des 

frequences fondamentaies sur chaque base de donnees analysee, soit sur la 
base de donnees d'echantilions vocaux du locuteur source et du locuteur cible. 

Cette normalisation permet de modifier, pour chaque locuteur, i'echelie 
de variations des scalaires de frequence fondamentale afin de la rendre 
coherente avec I'echelie des variations des coefficients cepstraux. Pour chaque 
trame n, on note g x (n) la frequence fondamentale normalisee pour le locuteur 
source et g y (n) celle du locuteur cible. 

Le precede de I'invention comporte ensuite des etapes 16X et 16Y de 
concatenation pour chaque locuteur source et cible, des informations 
d'enveloppe spectrale et de frequence fondamentale sous la forme d'un unique 
vecteur. 

Ainsi, I'etape 16X permet de definir pour chaque trame n un vecteur 
note x n regroupant les coefficients cepstraux c x (n) et la frequence fondamentale 
normalisee g x (n) selon I'equation suivante : 

xn = [cl(n),g x (n)] 

Dans cette equation, T designe I'operateur de transposition. 

De maniere similaire, I'etape 16Y permet de former pour chaque trame 
n, un vecteur y n reprenant les coefficients cepstraux c y (n) et la frequence 
fondamentale normalisee g y (n) selon I'equation suivante : 

y n = [cy(n),g y (n)] r 
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Les etapes 16 X et 16Y sont suivies d'une etape 18 d'alignement entre 
le vecteur source x n et le vecteur cible y n , de maniere a former un appariement 
entre ces vecteurs obtenu par un aigorithme classique d'alignement tempore! 
dynamique dit « DTW » (en anglais : Dynamic Time Warping). 
5 En variante, Fetape 18 d'alignement est mise en oeuvre uniquement a 

partir des coefficients cepstraux sans utiiiser les informations de frequence 
fondamentale. 

L'etape 18 d'alignement delivre done un vecteur couple forme de 
couples de coefficients cepstraux et d'informations de frequence fondamentale 

1 0 des locuteurs source et cible, afignes temporellement. 

Uetape 18 d'aiignement est suivie d'une etape 20 de determination 
d'un modele representant les caracteristiques acoustitjues communes du 
locuteur source et du locuteur cible a partir des informations d'enveloppe 
spectrale et de frequence fondamentale de tous les echantillons analyses. 

15 Dans le mode de realisation decrit, il s'agit d'un modele probabiliste 

des caracteristiques acoustiques du locuteur cible et du locuteur source, selon un 
modele de melange de densites de probabilites gaussiennes, couramment note 
"GMM", dont les parametres sont estimes a partir des vecteurs source et cible 
contenant, pour chaque locuteur, (a frequence fondamentale normalisee et le 

20 cepstre discret. 

De maniere classique, ia densite de probabilite d'une variable aleatoire 
notee de maniere generate p(z), suivant un modele de melange de densites 
gaussiennes GMM s'ecrit mathematiquement de la maniere suivante : 

p(z)=2>.*(z, 

Q 

25 avec a t = 1 , o<ai<1 

Dans cette formule, Q designe le nombre de composantes du modele, 
N(z ; Mi, Si) est la densite de probabilite de la loi normale de moyenne p,- et de 
matrice de covariance Ej et les coefficients on sont les coefficients du melange. 

Ainsi, le coefficient a ( correspond a la probabilite a priori que la 
30 variable aleatoire z soit generee par la P me composante gaussienne du melange. 
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De maniere plus particuliere, I'etape 20 de determination du modele 
comporte une sous-etape 22 de moderation de la densite jointe p(z) des 
vecteurs source note x et cible note y, de sorte que : 

Ai _ L x n ' y n J 

L'etape 20 comporte ensuite une sous-etape 24 d'estimation de 
parametres GMM (a, p, 2) de la densite p(z). Cette estimation peut etre reaiisee, 
par exemple, a I'aide d'un algorithme classique de type dit "EM" (Expectation - 
Maximisation), correspondant a une rnethode iterative conduisant a I'obtention 
d'un estimateur de maximum de vraisemblance entre les donnees des 
echantillons de parole et le modele de melange de gaussiennes. 

La determination des parametres initiaux du modele GMM est obtenue 
a I'aide d'une technique classique de quantification vectorielle. 

L'etape 20 de determination de modele delivre ainsi les parametres 
d'un melange de densites gaussiennes, representatif des caracteristiques 
acoustiques communes et en particulier d'enveloppe spectrale et de frequence 
fondamentale, des echantillons vocaux du locuteur source et du locuteur cible. 

Le precede comporte ensuite une etape 30 de determination, a partir 
du modele et des echantillons vocaux, d'une fonction conjointe de transformation 
de la frequence fondamentale et de I'enveloppe spectrale fournie par le cepstre, 
du signal du locuteur source vers le locuteur cible. 

Cette fonction de transformation est determinee a partir d'un 
estimateur de la realisation des caracteristiques acoustiques du locuteur cible 
etant donne les caracteristiques acoustiques du locuteur source, forme dans le 
mode de realisation decrit, par I'esperance conditionnelle. 

Pour cela, I'etape 30 comporte une sous-etape 32 de determination de 
I'esperance conditionnelle des caracteristiques acoustiques du locuteur cible 
sachant les informations caracteristiques acoustiques du locuteur source. 
L'esperance conditionnelle est notee F(x) et est determinee a partir des formules 
suivantes : 

F(x)=E[y|x]=£/t f (x)b > +2- > . (2 . )" 1 (x-p .)] 

• =1 III I 
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avec 



hi(x)= 



X XX 

aN(x,^ ) 
/ i 

G,N(x,ju ,2 .) 



avec 



2 = 



2 2 ' 



2" 2^ 



et ^,-= 



Dans ces equations, hi(x) correspond a la probability a posteriori que 
le vecteur source x soit genera par la i dme composante du modele de melange de 
5 densites gaussiennes du modele. 

La determination de Tesperance conditionnelle permet ainsi d'obtenir 
la fonction de transformation conjointe des caracteristiques d'enveioppe spectrale 
et de frequence fondamentale entre le locuteur source et le locuteur cible, 

ii apparaTt done que le precede d'analyse de Pinvention permet, a partir 
10 du modele et des 6chantillons vocaux, d'obtenir une fonction de transformation 
conjointe des caracteristiques acoustiques de frequence fondamentale et 
d'enveioppe spectrale. 

En reference a la figure 1B, le procede de conversion comporte 
ensuite la transformation 2 d'un signal vocal a convertir prononce par le locuteur 
15 source, lequel signal a convertir peut etre different des signaux vocaux utilises 
precedemment 

Cette transformation 2 debute par une etape d'analyse 36 reaiisee, 
dans le mode de realisation decrit, a I'aide d'une decomposition selon le modele 
HNM similaire a celles realisees dans les etapes 4X et 4Y decrites 
20 precedemment. Cette etape 36 permet de delivrer des informations d'enveioppe 
spectrale sous la forme de coefficients cepstraux, des informations de frequence 
fondamentale ainsi que des informations de phase et de frequence maximaie de 
voisement. 

L'etape 36 est suivie d'une etape 38 de formatage des caracteristiques 
25 acoustiques du signal a convertir par normalisation de la frequence fondamentale 
et concatenation avec les coefficients cepstraux afin de former un unique vecteur. 

Get unique vecteur est utilise lors d'une etape 40 de transformation 
des caracteristiques acoustiques du signal vocal a convertir par ^application de la 
fonction de transformation determinee a Petape 30, aux coefficients cepstraux du 
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signal a convertir definis lors de I'etape 36, ainsi qu'aux informations de 
frequence fondamentaie. 

A Tissue de I'etape 40, chaque trame d'echantillons du signal a 
convertir du locuteur source est ainsi associee a des informations d'enveloppe 
5 spectrale et de frequence fondamentaie transformees simultanement, dont les 
caracteristiques sont sirnilaires a celles des echantillons du locuteur cible. 

Le precede comporte ensuite une etape 42 de denormalisation des 
informations de frequence fondamentaie transformees. 

Cette etape 42 permet de ramener les informations de frequence 
10 fondamentaie transformees sur une echelle propre au locuteur cible selon 
I'equation suivante : 

PW ] =f »» w , ef k.)] 

o 

Dans cette equation F Q [F(x)] correspond a la frequence fondamentaie 
transformee denormalisee, F 0 moy (y) a la moyenne des valeurs des frequences 
15 fondamentales du locuteur cible et F[g x (n)] a la transformee de la frequence 
fondamentaie normalisee du locuteur source. 

De maniere classique, le procede de conversion comporte ensuite une 
etape 44 de synthese du signal de sortie realisee, dans I'exemple decrit, par une 
synthese de type HNM qui delivre directement le signal vocal converti a partir des 
20 informations d'enveloppe spectrale et de frequence fondamentaie transformees 
delivrees par I'etape 40 et des informations de phase et de frequence maximale 
de voisement delivrees par I'etape 36. 

Le procede de conversion mettant en ceuvre le procede d'analyse de 
l'invention permet ainsi d'obtenir une conversion de voix realisant conjointement 
25 des modifications d'enveloppe spectrales et de frequence fondamentaie, de 
maniere a obtenir un rendu auditif de bonne qualite. 

En reference a la figure 2A, on va maintenant decrire I'organigramme 
general d'un second mode de realisation du procede de l'invention. 

De meme que precedemment, ce procede comporte la determination 1 
30 de fonctions de transformation de caracteristiques acoustiques du locuteur 
source en caracteristiques acoustiques proches de celles du locuteur cible. 
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Cette determination 1 debute par la mise en ceuvre des etapes 4X et 
4Y d'analyse des echantillons vocaux prononces respectivement par le locuteur 
source et ie locuteur cible. 

Ces etapes 4X et 4Y sont fondees sur Putilisation du modele HNM 
5 ainsi que ceia a ete decrit precedemment et delivrent chacune un scaiaire note 
F(n) representant la frequence fondamentale et un vecteur note c(n) comprenant 
des informations d'enveloppe spectrale sous ia forme d'une sequence de 
coefficients cepstraux. 

Dans ce mode de realisation, ces etapes 4X et 4Y d'analyse sont 
10 suivies d'une etape 50 d'alignement des vecteurs de coefficients cepstraux issus 
de ranalyse des frames du locuteur source et des frames du locuteur cible. 

Cette etape 50 est mise en oeuvre par un algorithme te! que 
Palgorithme DTW, de maniere similaire a Petape 18 du premier mode de 
realisation. 

15 A I'issue de Petape 50 d'alignement, le precede dispose d'un vecteur 

couple forme de couples de coefficients cepstraux du locuteur source et du 
locuteur cible, alignes temporellement Ce vecteur couple est egalement associe 
aux informations de frequence fondamentale. 

L'etape 50 d'alignement est suivie d'une etape 54 de separation, dans 
20 le vecteur couple, des frames voisees et des trames non voisees. 

En effet, seules ies trames voisees presentent une frequence 
fondamentale et un tri peut etre effectue en considerant si oui ou non des 
informations de frequence fondamentale existent pour chaque couple du vecteur 
couple. 

25 Cette etape de separation 54 permet ensuite de reaiiser ta 

determination 56 d'une fonction de transformation conjointe des caracteristiques 
d'enveloppe spectrale et de frequence fondamentale des frames voisees et la 
determination 58 d J une fonction de transformation des seules caracteristiques 
d'enveloppe spectrale des trames non voisees. 

30 La determination 56 d'une fonction de transformation des trames 

voisees debute par des etapes 60X et 60Y de normalisation des informations de 
frequence fondamentale respectivement pour Ies locuteurs source et cible. 

Ces etapes 60X et 60Y sont realisees de maniere similaire aux etapes 
14X et 14Y du premier mode de realisation et aboutissent a Pobtention, pour 
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chaque trame voisee, de la frequence normalises pour te locuteur source notee 
g x (n) et de celle du locuteur cible notee g y (n). 

Ces etapes 60X et 60Y de normalisation sont suivies chacune d'une 
etape 62X et 62Y de concatenation des coefficients cepstraux c x et c y du locuteur 
source et du locuteur cible respectivement avec les frequences normalisees g x et 

9y 

Ces etapes 62X et 62Y de concatenation sont realisees de maniere 
similaire aux etapes 16X et 16Y et permettent de delivrer un vecteur x n contenant 
des informations d'enveloppe spectrale et de frequence fondamentale pour les 
frames voisees du locuteur source et un vecteur y n contenant des informations 
d'enveloppe spectrale et de frequence fondamentale normalisees pour les trames 
voisees du locuteur cible. 

De plus, I'alignement entre ces deux vecteurs est conserve tel 
qu'obtenu a Tissue de I'etape 50, les modifications survenues lors des etapes 
60X et 60Y de normalisation et 62X et 62Y de concatenation etant realisees 
directement a I'interieur du vecteur delivre par I'etape 50 d'alignement. 

Le procede comporte ensuite une etape 70 de determination d'un 
modele representant les caracteristiques communes du locuteur source et du 
locuteur cible. 

A la difference de I'etape 20 decrite en reference a la figure 1A, cette 
etape 70 est mise en ceuvre a partir des informations de frequence fondamentale 
et d'enveloppe spectrale des seuls echantillons voises analyses. 

Dans ce mode de realisation, cette etape 70 estfondee sur un modele 
probabiliste seion un melange de densite gaussienne dit GMM. 

L'etape 70 comporte ainsi une sous-etape 72 de modelisation de la 
densite jointe entre les vecteurs X et Y realises de maniere similaire a la sous- 
etape 22 decrite precedemment. 

Cette sous-etape 72 est suivie d'une sous-etape 74 d'estimation des 
parametres GMM (a, // et E) de la densite p(z). 

De meme que dans le mode de realisation decrit precedemment, cette 
estimation est realisee a I'aide d'un aigorithme de type « EM » permettant 
I'obtention d'un estimateur de maximum de vraisembiance entre les donnees des 
echantillons de paroles et le modele de melange de gaussienne. 
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L'etape 70 delivre done les parametres d'un melange de densites 
gaussiennes, representatif des caracteristiques acoustiques communes 
d'enveloppe spectrale et de frequence fondamentale des echantillons vocaux 
voises du locuteur source et du locuteur cibie. 
5 L'etape 70 est suivie d'une etape 80 de determination d'une fonction 

conjointe de transformation de la frequence fondamentale et de I'enveloppe 
spectrale des echantillons vocaux voises du locuteur source vers le locuteur 
cible. 

Cette etape 80 est mise en ceuvre de maniere similaire a l'etape 30 du 
10 premier mode de realisation et en particuiier comporte egalement une sous-etape 
82 de determination de I'esperance conditionnelle des caracteristiques 
acoustiques du locuteur cible sachant les caracteristiques acoustiques du 
locuteur source, cette sous-etape etant mise en ceuvre selon les memes formuies 
que precedemment, appiiquees aux seuls echantillons voises. 
15 L'etape 80 aboutit ainsi a I'obtention d'une fonction de transformation 

conjointe des caracteristiques d'enveloppe spectrale et de frequence 
fondamentale entre le locuteur source et le locuteur cible, applicable aux trames 
voisees. 

Parallelement a la determination 56 de cette fonction de transformation 
20 des trames voisees, la determination' 58 d'une fonction de transformation des 
seules caracteristiques d'enveloppe spectrale des trames non voisees est 
egalement mise en ceuvre. 

Dans le mode de realisation decrit, la determination 58 comporte une 
etape 90 de determination d'une fonction de filtrage definie de maniere globale 
25 sur les parametres d'enveloppe spectrale, a partir des couples de trames non 
voisees. 

Cette etape 90 est realisee de maniere classique par la determination 
d'un modele GMM ou encore de tout autre technique adaptee et Gonnue. 

A Tissue de la determination 58, une fonction de transformation des 
30 caracteristiques d'enveloppe spectrale des trames non voisees est obtenue. 

En reference a la figure 2B, le precede comporte ensuite la 
transformation 2 des caracteristiques acoustiques d J un signal vocal a convertir. 
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De meme que dans !e mode de realisation precedent, cette 
transformation 2 debute par une etape d'anaiyse 36 du signal vocal a convertir 
realisee selon un modele HNM et une etape 38 de formatage. 

Ainsi que cela a ete dit precedemment, ces eta pes 36 et 38 permettent 
de delivrer, sous la forme d'un unique vecteur, les informations d'enveloppe 
spectrale et de frequence fondamentale normalisee. De plus, I'etape 36 delivre 
des informations de phase et de frequence maximale de voisement. 

Dans le mode de realisation decrit, I'etape 38 est suivie d'une etape 
100 de separation, dans le signal a convertir analyse, des trames voisees et des 

trames non voisees. 

Cette separation est realisee a I'aide d'un critere fonde sur la presence 
d'une information de frequence fondamentale non nulle. 

L'etape 100 est suivie d'une etape 102 de transformation des 
caracteristiques acoustiques du signal vocal a convertir par I'application des 
fonctions de transformation determinees lors des etapes 80 et 90. 

Plus particulierement, cette etape 102 comporte une sous-etape 104 
duplication de la fonction de transformation conjointe des informations 
d'enveloppe spectrale et de frequence fondamentale, determinee a I'etape 80, 
aux seules trames voisees telles que separees a Tissue de I'etape 100. f{ 

Parallelement, I'etape 102 comporte une sous-etape 106 d'appiication 
de la fonction de transformation des seules informations d'enveloppe spectrale, 
determinee a I'etape 90, aux seules trames non voisees telles que separees lors 
de I'etape 1 00. 

La sous-etape 104 delivre ainsi pour chaque frame d'echantillons 
voises du signal a convertir du locuteur source, des informations d'enveloppe 
spectrale et de frequence fondamentale transformees simultanement et dont les 
caracteristiques sont similaires a celles des echantilions voises du locuteur cible. 

La sous-etape 106 delivre quant a elle pour chaque trame 
d'echantillons non voises du signal a convertir du locuteur source, des 
informations d'enveloppe spectrale transformees dont les caracteristiques sont 
similaires a celles des echantilions non voises du locuteur cible. 

Dans le mode de realisation decrit, le precede comprend en outre une 
etape 108 de denormalisation des informations de frequence fondamentale 
transformees, mise en ceuvre sur les informations delivrees par la sous-etape 
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104 de transformation, d'une maniere similaire a Petape 42 decrite en reference a 
ta figure IB. 

Le precede de conversion comporte ensuite une etape 110 de 
synthese du signal de sortie realisee, dans Pexemple decrit, par une synthese de 
5 type HNM qui delivre le signal vocal convert'! a partir des informations 
d'enveioppe spectrale et de frequence fondamentale transformees ainsi que des 
informations de phase et de frequence maximale de voisement pour les frames 
voisees et a partir des informations d'enveioppe spectrale transformees pour les 
frames non voisees. 

10 Le precede de ['invention permet done, dans ce mode de realisation, 

d'effectuer un traitement distinct sur les trames voisees et les trames non 
voisees, les trames voisees subissant une transformation simultanee des 
caracteristiques d'enveioppe spectrale et de frequence fondamentale et les 
trames non voisees subissant une transformation de leurs seules caracteristiques 

1 5 d'enveioppe spectrale. 

Un tel mode de realisation permet une transformation plus precise que 
le mode de realisation precedent tout en conservant une complexity limitee. 

L'efficacite d'un procede de conversion peut etre evaluee a partir 
d'echantilions vocaux identiques prononces par le locuteur source et le locuteur 

20 cible. 

Ainsi, !e signal vocal prononce par le locuteur source est convert! a 
Paide du procede de Pinvention et la ressemblance du signal convert! avec le 
signal prononce par le locuteur cible est evaluee. 

Par exernple, cette ressemblance est calculee sous la forme d'un 
25 rapport entre la distance acoustique separant le signal convert! du signal cible et 
la distance acoustique separant le signal cible du signal source. 

La figure 3 represente un graphique de resultats obtenu dans le cas 
d J une conversion de voix d'homme en une voix de femme, les fonctions de 
transformation etant obtenues a partir de bases d'apprentissage contenant 
30 chacune 5 minutes de parole echantillonnees a 16 kHz, les vecteurs cepstraux 
utilises etant de taille 20 et le modele GMM etant a 64 composantes. 

Ce graphique represente en abscisse les nurneros de trames et en 
ordonnee la frequence en hertz du signal. 



1er depot 



19 

Les resultats represents sent caracteristiques pour les trames 
voisees qui s'etendent approximativement des trames 20 a 85. 

Sur ce graphique, la courbe Cx represente les caracteristiques de 
frequence fondamentale du signal source et la courbe Cy celles du signal cible. 

La courbe C-, represente les caracteristiques de frequence 
fondamentale d'un signal obtenu par une conversion lineaire classique. 

II apparait que ce signal presente la meme forme generate que celle 
du signal source representee par la courbe Cx. 

A I'inverse, la courbe C 2 represente les caracteristiques de frequence 
fondamentale d'un signal convert"! a I'aide du precede de I'invention tel que decrit 
en reference aux figures 2A et 2B. 

I! transparaTt de maniere flagrante que la courbe de frequence 
fondamentale du signal converti a I'aide du precede de I'invention presente une 
forme generate tres proche de la courbe de frequence fondamentale cible Cy. 

Sur la figure 4, on a represente un schema bloc fonctionnel d'un 
systeme de conversion de voix mettant en ceuvre le precede decrit en reference 
aux figures 2A et 2B. 

Ce systeme utilise en entree une base de donnees 120 d'echantillons 
vocaux prononces par le locuteur source et une base de donnees 122 contenant 
au moins les memes echantillons vocaux prononces par le locuteur cible. 

Ces deux bases de donnees sont utilisees par un module 124 de 
determination de fonctions de transformation de caracteristiques acoustiques du 
locuteur source en caracteristiques acoustiques du locuteur cible. 

Ce module 124 est adapte pour la mise en ceuvre des etapes 56 et 58 
du precede telies que decrites en reference a la figure 2 et permet done la 
determination d'une fonction de transformation de I'enveloppe spectrale des 
trames non voisees et d'une fonction de transformation conjointe de I'enveloppe 
spectrale et de la frequence fondamentale des trames voisees. 

De maniere generate, on considere que le module 124 comporte une 
unite 126 de determination de la fonction de transformation conjointe de 
I'enveloppe spectrale et de la frequence fondamentale des trames voisees et une 
unite 128 de determination de la fonction de transformation de I'enveloppe 
spectrale des trames non voisees. 
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Le systeme de conversion de voix regoit en entree un signal vocal 130 
corresponds^ a un signal de parole prononce par le iocuteur source et destine a 
etre convert! 

Le signal 130 est introduit dans un module 132 d'analyse du signal, 
5 m eft ant en ceuvre, par exemple, une decomposition de type HNM permettant de 
dissocier des informations d'enveloppe spectrale du signal 130 sous la forme de 
coefficients cepstraux et des informations de frequence fondarnentale. Le module 
132 delivre egaiement des informations de phase et de frequence maximafe de 
voisement obtenues par ['application du modele HNM. 
10 Le module 132 met done en ceuvre Tetape 36 du procede decrit 

precedemment et avantageusement Cetape 38. 

Eventuellement cette analyse peut etre faite au preaiable et les 
informations sont stockees pour etre utilisees ulterieurement 

Le systeme comporte ensuite un module 134 de separation des 
15 frames voisees et des frames non voisees dans le signal vocal a convertir 
analyse. 

Les frames voisees, separees par le module 134, sont transmises a un 
module 136 de transformation adapte pour appliquer la fonction de 
transformation conjointe determinee par I'unite 126. 
20 Ainsi, fe module 136 de transformation met en oeuvre I'etape 104 

decrite en reference a la figure 2B. Avantageusement, le module 136 met 
egaiement en oeuvre I'etape 108 de denormalisation. 

Les trames non voisees, separees par le module 134, sont transmises 
a un module 138 de transformation adapte pour appliquer la fonction de 
25 transformation determinee par ('unite 128 de maniere a transformer les 
coefficients cepstraux des trames non voisees, 

Ainsi, le module 138 de transformation des trames non voisees met en 
cBUvre Tetape 106 decrite a la figure 2B. 

Le systeme comporte egaiement un module 140 de synthese recevant 
30 en entree, pour les trames voisees fes informations d'enveloppe spectrale et de 
frequence fondarnentale transformees conjointement et les informations de 
phase et de frequence maximale de voisement delivrees par le module 136. Le 
module 140 regoit egaiement les coefficients cepstraux des trames non voisees 
transformers et deiivres par le module 138. 
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Le module 140 met ainsi en ceuvre I'etape 110 du precede deer it en 
reference a la figure 2B et delivre un signal 150 correspondent au signal vocal 
130 du locuteur source mais dont les caracteristiques d'enveloppe spectrale et de 
frequence fondamentale ont ete modifiees afin d'etre similaires a celles du 
locuteur cible. 

Le systeme decrit peut etre mis en ceuvre de diverses manieres et 
notamment a I'aide des programmes informatiques adaptes et relies a des 
moyens materieis d'acquisition sonores. 

Dans le cadre de I'application du precede de invention, tel que decrit 
en reference aux figures 1A et 1B, le systeme comporte dans le module 124, une 
unique unite de determination d'une fonction de transformation conjointe de 
I'enveloppe spectrale et de la frequence fondamentale. 

Dans un tel mode de realisation, les modules 134 de separation et 138 
d'application de la fonction de transformation des frames non voisees, ne sont 
pas necessaires. 

Le module 136 permet done I'application de la seule fonction de 
transformation conjointe a toutes les trames du signal vocal a convertir et delivre 
les trames transformers au module 140 de synthese. 

De maniere generate, le systeme est adapte pour la mise en ceuvre de 
toutes les etapes des precedes decrits en reference aux figures 1 et 2. » 

Dans tous les cas, le systeme peut egalement etre mis en ceuvre sur 
des bases de donnees determinees afin de former des bases de donnees de 
signaux convertis pr&ts a etre utilises. 

Par exemple, I'analyse est faite en temps differe et les parametres de 
I'analyse HNM sont memorises en vue d'une utilisation ulterieure lors des etapes 
40 ou 100 par le module 134. 

Enfin, en fonction de la complexity des signaux et de la qualite 
souhaitee, le procede de ('invention et le systeme correspondant peuvent etre 
mis en ceuvre en temps reel. 

Bien entendu d'autres modes de realisation que ceux decrits peuvent 

etre envisages. 

Notamment, les modeles HNM et GMM peuvent etre remplaces par 
d'autres techniques et modeles connus de I'homme de ['art. Par exemple, 
I'analyse est realisee a I'aide de techniques dites LPC (Linear Predictive 
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Coding), de modeles sinusoTdaux ou MBE (Multi Band Excited), les parametres 
spectraux sont des parametres dits LSF (Line Spectrum Frequencies), ou encore 
des parametres lies aux form ants ou a un signal glottique. En variante, le modele 
GMM est remplace par une quantification vectorielle (Fuzzy VG.). 
5 En variants, Pestimateur mis en oeuvre lors de Petape 30 est un critere 

de maximum a posteriori, dit "MAP 11 et correspondant a !a realisation du calcu! de 
Pesperance uniquement pour le modele representant le mieux le couple de 
vecteurs source-cible. 

Dans une autre variante, la determination d'une fonction de 

10 transformation conjointe est realisee a Paide d'une technique dite des moindres 
carres au lieu de Pestimation de la densite jointe decrite. 

Dans cette variante, la determination d'une fonction de transformation 
comprend la modelisation de la densite de probability des vecteurs source a 
Paide d'un modele GMM puis la determination des parametres du modele a Paide 

15 d'un algorithme EM, La modelisation prend ainsi en compte des segments de 
parole du locuteur source dont les correspondants prononces par le locuteur cible 
ne sont pas disponibles. 

La determination comprend ensuite la minimisation d'un critere des 
moindres carres entre parametres cible et source pour obtenir la fonction de 

20 transformation, II est a noter que Pestimateur de cette fonction s'exprime toujours 
de la meme maniere mats que les parametres sont estimes differemment et que 
des donnees supplementaires sont prises en compte. 
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REVENDICATIQNS 
1. Procede de conversion d'un signal vocal (130) prononce par un 
locuteur source en un signal vocal converti (150) dont les caracteristiques 
acoustiques ressemblent a celles d'un locuteur cible, comprenant : 

- la determination (1) d'au rnoins une fonction de transformation de 
caracteristiques acoustiques du locuteur source en caracteristiques acoustiques 
proches de celles du locuteur cible, a parti r d'echantillons vocaux des locuteurs 

source et cible ; et 

- la transformation (2) de caracteristiques acoustiques du signal 
vocal a convertir (130) du locuteur source, par ('application de ladite au moins 
une fonction de transformation, 

caracterise en ce que ladite determination (1) comprend la 
determination (1; 56) d'une fonction de transformation conjointe de 
caracteristiques relatives a I'enveloppe spectrale et de caracteristiques relatives a 
la frequence fondamentale du locuteur source et en ce que ladite transformation 
(2) comprend ['application de ladite fonction de transformation conjointe. 

2. Procede selon la revendication 1, caracterise en ce que ladite 
determination (1 ; 56) d'une fonction de transformation conjointe comprend : 

- une etape (4X, 4Y) d'analyse des echantillons vocaux des 
locuteurs source et cible regroupes en trames pour obtenir, pour chaque trame 
d'echantillons d'un locuteur, des informations relatives a I'enveloppe spectrale et 
a la frequence fondamentale ; 

- une etape (16X, 16Y; 62X, 62Y) de concatenation des 
informations relatives a I'enveloppe spectrale et a la frequence fondamentale 
pour chacun des locuteurs source et cible ; 

- une etape (20 ; 70) de determination d'un modele representant 
des caracteristiques acoustiques communes des echantillons vocaux du locuteur 
source et du locuteur cible ; et 

- une etape (30 ; 80) de determination, a partir de ce modele et des 
echantillons vocaux, de ladite fonction de transformation conjointe. 

3. Procede selon la revendication 2, caracterise en ce que lesdites 
etapes d'analyse (4X.4Y) des echantillons vocaux des locuteurs source et cible 
sont adaptees pour delivrer lesdites informations relatives a I'enveloppe spectrale 
sous la forme de coefficients cepstraux. 
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4. Precede selon la revendication 2 ou 3, caracterise en ce que 
lesdites etapes (4X, 4Y) d'analyse comprennent chacune la moderation des 
echantillons vocaux selon une sornme d'un signal harmonique et d'un signal de 
bruit qui comprend : 

5 - une sous-etape (8X, 8Y) d'estimation de la frequence 

fondamentaie des echantillons vocaux ; 

- une sous-etape (10X, 10Y) d r analyse synchroniser de chaque 
trame d'echantillons sur sa frequence fondamentaie ; et 

- une sous-etape (12X, 12Y) d'estimation de parametres 
1 0 d'enveloppe spectraie de chaque trame d'echantillons. 

5. Precede selon Tune quelconque des revendications 2 a 4, 
caracterise en ce que ladite etape {20 ; 70) de determination d'un modele 
correspond a la determination d'un modele de melange de densites de 
probabilites gaussiennes. 

15 6. Precede seion la revendication 5, caracterise en ce que ladite 

etape de determination (20 ; 70) d f un modele comprend : 

- une sous-etape (22, 72) de determination d'un modele corres- 
pondant a un melange de densites de probabilites gaussiennes, et 

- une sous-etape (24, 74) d'estimation des parametres du melange 
20 de densites de probabilites gaussiennes a partir de I'estimation du maximum de 

vraisemblance entre les caracteristiques acoustiques des echantillons des 
locuteurs source et cible et !e modele. 

7. Procede seion Tune quelconque des revendications 2 a 6, 
caracterise en ce que ladite determination (1 : 56) d'au moins une fonction de 
25 transformation, comporte en outre une etape (14X, 14Y ; 60X, 60 Y) de 
normalisation de la frequence fondamentaie des frames d'echantillons des 
locuteurs source et cible respectivement par rapport aux moyennes des 
frequences fondamentales des echantillons analyses des locuteurs source et 
cible. 

30 8. Procede seion Pune quelconque des revendications 2 a 7, 

caracterise en ce qu'il comporte une etape (18 ; 50) d'alignement temporel des 
caracteristiques acoustiques du locuteur source avec ies caracteristiques 
acoustiques du locuteur cible, cette etape (18 ; 50) etant realisee avant ladite 
etape (20 ; 70) de determination d l un modele conjoint 
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9. Precede selon rune quelconque des revendications 1 a 8, 
caracterise en ce qu'il comporte une etape (54) de separation dans ies 
echantillons vocaux du locuteur source et du locuteur cible, des trames a 
caractere voise et des trames a caractere non voise, ladite determination (56) 
5 d T une fonction de transformation conjointe des caracteristiques relatives a 
i'enveloppe spectraie et a la frequence fondamentaie etant realisee uniquement a 
partir desdites trames voisees et le precede comportant une determination (58) 
d'une fonction de transformation des seules caracteristiques d'enveloppe 
spectraie uniquement a partir desdites trames non voisees. 
10 10. Precede selon Tune quelconque des revendications 1 a 8, 

caracterise en ce que ladite determination (1) d'au moins une fonction de 
transformation comprend uniquement ladite etape (1) de determination d'une 
fonction de transformation conjointe. 

11. Procede selon Tune quelconque des revendications 1 a 10, 
15 caracterise en ce que ladite determination (1 ; 56) d'une fonction de 

transformation conjointe est realisee a partir d'un estimateur de la realisation des 
caracteristiques acoustiques du locuteur cible sachant ies caracteristiques 
acoustiques du locuteur source. 

12. Procede selon la revendication 11, caracterise en ce que ledit 
20 estimateur est forme de Tesperance conditionnelle de la realisation des 

caracteristiques acoustiques du locuteur cible sachant la realisation des 
caracteristiques acoustiques du locuteur source. 

13. Procede selon Tune quelconque des revendications 1 a 12, 
caracterise en ce que ladite transformation (2) de caracteristiques acoustiques du 

25 signal vocal a convertir (130), comporte : 

- une etape (36) d'analyse de ce signal vocal (130), regroupe en 
trames pour obtenir, pour chaque trame d'echantillons, des informations relatives 
a I'enveloppe spectraie et a la frequence fondamentaie ; 

- une etape (38) de formatage des informations acoustiques 
30 relatives a I'enveloppe spectraie et a la frequence fondamentaie du signal vocal a 

convertir ; et 

- une etape (40 ; 102) de transformation des informations 
acoustiques formatees du signal vocal a convertir (130) a Paide de ladite fonction 
de transformation conjointe. 
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14. Procede selon les revendications 9 et 13 prises ensemble, 
caracterise en ce qu'il comporte une etape (100) de separation, dans ledit signal 
vocal a convertir (130), des trarnes voisees et des trames non voisees, ladite 
etape de transformation comprenant : 

5 - une sous-etape (104) d'appiication de iadite fonction de 

transformation conjointe aux seules trames voisees dudit signal a convertir 
(130) ;et 

- une sous-etape (106) d'appiication de iadite fonction de 
transformation des seules caracteristiques d'enveloppe spectrale auxdites trames 

1 0 non voisees dudit signal a convertir (1 30). 

15, Procede selon les revendications 10 et 13 prises ensemble, 
caracterise en ce que ladite etape de transformation comprend Implication de 
ladite fonction de transformation conjointe aux caracteristiques acoustiques de 
toutes les trames dudit signal vocal a convertir (130). 

15 16. Procede selon Tune quelconque des revendications 1 a 15, 

caracterise en ce qu ? il comporte en outre une etape (44 ; 110) de synthese 
permettant de former un signal vocal convert! (150) a partir des dites informations 
acoustiques transformees. 

17. Systeme de conversion d'un signal vocal (130) prononce par un 

20 locuteur source en un signal vocal converti (150) dont les caracteristiques 
acoustiques ressemblent a celles d'un locuteur cible, comprenant : 

- des moyens (124) de determination d'au moins une fonction de 
transformation des caracteristiques acoustiques du locuteur source en 
caracteristiques acoustiques proches du locuteur cible, a partir d'echantilions 

25 vocaux prononces par les locuteurs source et cible : et 

- des moyens (136, 138) de transformation des caracteristiques 
acoustiques du signal vocal a convertir (130) du locuteur source par ^application 
de ladite au moins une fonction de transformation, 

caracterise en ce que lesdits moyens (124) de determination d'au 
30 moins une fonction de transformation, comprennent une unite (126) de 
determination d'une fonction de transformation conjointe de caracteristiques 
relatives a I'enveioppe spectrale et de caracteristiques relatives a la frequence 
fondamentale du locuteur source et en ce que lesdits moyens de transformation 
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comportent des moyens (136) d'application de ladite fonction de transformation 
conjointe. 

18. Systeme selon la revendication 17, caracterise en ce qu'il 

comporte en outre : 

- des moyens (132) d'analyse du signal vocal a convertir (130), 
adaptes pour delivrer en sortie des informations relatives a I'enveloppe spectrale 
et a la frequence fondamentale du signal vocal a convertir (1 30) ; et 

- des moyens (140) de synthese permettant de former un signal 
vocal converti a partir au moins desdites informations d'enveloppe spectrale et de 
frequence fondamentale transformees simultanement. 

19. Systeme selon I'une quelconque des revendications 17 et 18, 
caracterise en ce que lesdits moyens (124) de determination d'au moins une 
fonction de transformation de caracteristiques acoustiques comportent en outre 
une unite (128) de determination d'une fonction de transformation de I'enveloppe 
spectrale des frames non voisees, ladite unite (126) de determination de la 
fonction de transformation conjointe etant adaptee pour la determination de la 
fonction de transformation conjointe uniquement pour les frames voisees. 
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